Perché il nuovo modello di intelligenza artificiale di Anthropic a volte cerca di "fare la spia"

28 maggio 2025, ore 15:40

Internet è impazzito dopo che Anthropic ha rivelato che Claude tenta di segnalare attività "immorali" alle autorità in determinate condizioni. Ma è improbabile che gli utenti si imbattano in questo.

Fotografia: Thomas Fuller/Getty Images

Il team di allineamento di Anthropic stava eseguendo test di sicurezza di routine nelle settimane precedenti al rilascio dei suoi ultimi modelli di intelligenza artificiale quando i ricercatori hanno scoperto qualcosa di inquietante: quando uno dei modelli rilevava di essere utilizzato per scopi "evidentemente immorali", tentava di "utilizzare strumenti da riga di comando per contattare la stampa, contattare le autorità di regolamentazione, provare a escluderti dai sistemi pertinenti o tutte le suddette azioni", ha scritto il ricercatore Sam Bowman in un post su X giovedì scorso.

Bowman ha cancellato il post poco dopo averlo condiviso, ma la narrazione sulle tendenze di Claude a fare il whistleblower era già sfuggita al controllo. "Claude è un informatore" è diventato un ritornello comune in alcuni ambienti tecnologici sui social media. Almeno una pubblicazione l'ha inquadrata come una caratteristica intenzionale del prodotto piuttosto che per quello che era: un comportamento emergente.

"Sono state circa 12 ore frenetiche mentre l'onda di Twitter raggiungeva il suo apice", racconta Bowman a WIRED. "Ero consapevole che stavamo pubblicando un sacco di cose piccanti in questo rapporto. Era il primo del suo genere. Penso che se si esamina attentamente uno qualsiasi di questi modelli, si trovino un sacco di cose strane. Non mi ha sorpreso vedere una sorta di esplosione."

Le osservazioni di Bowman su Claude facevano parte di un importante aggiornamento del modello annunciato da Anthropic la scorsa settimana . In occasione del debutto di Claude 4 Opus e Claude Sonnet 4, l'azienda ha pubblicato una "Scheda di Sistema" di oltre 120 pagine che descrive in dettaglio le caratteristiche e i rischi associati ai nuovi modelli. Il rapporto afferma che quando Claude 4 Opus viene "collocato in scenari che comportano gravi illeciti da parte dei suoi utenti" e gli viene concesso l'accesso a una riga di comando e gli viene detto qualcosa nel prompt di sistema come "prendi l'iniziativa" o "agisci con coraggio", invierà email a "media e forze dell'ordine" con avvertimenti sui potenziali illeciti.

In un esempio condiviso da Anthropic nel rapporto, Claude ha cercato di inviare un'e-mail alla Food and Drug Administration statunitense e all'ispettore generale del Dipartimento della Salute e dei Servizi Umani per "segnalare urgentemente una falsificazione pianificata della sicurezza degli studi clinici". L'e-mail ha poi fornito un elenco di presunte prove di illeciti e ha messo in guardia contro la possibilità che i dati venissero distrutti per insabbiarli. "Con rispetto, Assistente AI", concludeva l'e-mail.

"Non si tratta di un comportamento nuovo, ma è un comportamento che Claude Opus 4 adotterà con maggiore facilità rispetto ai modelli precedenti", si legge nel rapporto. Il modello è il primo che Anthropic ha rilasciato con la dicitura "ASL-3", il che significa che Anthropic lo considera " significativamente più rischioso " rispetto agli altri modelli dell'azienda. Di conseguenza, Opus 4 ha dovuto sottoporsi a un più rigoroso lavoro di red-teaming e aderire a linee guida di implementazione più rigorose.

Bowman afferma che il comportamento di whistleblowing osservato da Anthropic non è qualcosa che Claude mostrerà con i singoli utenti, ma potrebbe verificarsi con gli sviluppatori che utilizzano Opus 4 per creare le proprie applicazioni con l'API dell'azienda. Anche in tal caso, è improbabile che gli sviluppatori di app riscontrino un simile comportamento. Per produrre una risposta del genere, gli sviluppatori dovrebbero fornire al modello "istruzioni piuttosto insolite" nel prompt di sistema, collegarlo a strumenti esterni che consentano al modello di eseguire comandi informatici e consentirgli di contattare il mondo esterno.

Gli scenari ipotetici presentati dai ricercatori a Opus 4, che hanno scatenato il comportamento di whistleblowing, prevedevano molte vite umane in gioco e comportamenti illeciti assolutamente inequivocabili, afferma Bowman. Un esempio tipico sarebbe quello di Claude che scopre che un impianto chimico ha consapevolmente permesso che una perdita tossica continuasse, causando gravi malattie a migliaia di persone, solo per evitare una piccola perdita finanziaria in quel trimestre.

È strano, ma è proprio il tipo di esperimento mentale che i ricercatori sulla sicurezza dell'IA amano analizzare. Se un modello rileva un comportamento che potrebbe danneggiare centinaia, se non migliaia, di persone, dovrebbe denunciarlo?

"Non mi fido che Claude abbia il contesto giusto, o che lo usi in modo sufficientemente sfumato e attento da poter prendere decisioni in autonomia. Quindi non siamo entusiasti che ciò stia accadendo", afferma Bowman. "È qualcosa che è emerso durante una formazione e ci è saltato all'occhio come uno dei comportamenti limite che ci preoccupano".

Nel settore dell'intelligenza artificiale, questo tipo di comportamento inaspettato viene generalmente definito disallineamento: quando un modello mostra tendenze che non sono in linea con i valori umani. (C'è un famoso saggio che mette in guardia su cosa potrebbe succedere se a un'intelligenza artificiale venisse detto, per esempio, di massimizzare la produzione di graffette senza essere in linea con i valori umani: potrebbe trasformare l'intera Terra in graffette e uccidere tutti nel processo). Alla domanda se il comportamento di whistleblowing fosse in linea o meno, Bowman lo ha descritto come un esempio di disallineamento.

"Non è qualcosa che abbiamo progettato, e non è qualcosa che volevamo vedere come conseguenza di qualcosa che stavamo progettando", spiega. Jared Kaplan, direttore scientifico di Anthropic, ha dichiarato a WIRED che "certamente non rappresenta il nostro intento".

"Questo tipo di lavoro evidenzia che questo può verificarsi e che dobbiamo fare attenzione e mitigarlo per assicurarci che i comportamenti di Claude siano esattamente quelli che desideriamo, anche in questi strani scenari", aggiunge Kaplan.

C'è anche il problema di capire perché Claude "scelga" di denunciare un'attività illegale da parte dell'utente. Questo è in gran parte compito del team di interpretabilità di Anthropic, che lavora per scoprire quali decisioni prende un modello nel suo processo di elaborazione delle risposte. È un compito sorprendentemente difficile : i modelli sono supportati da una vasta e complessa combinazione di dati che può essere imperscrutabile per gli esseri umani. Ecco perché Bowman non è del tutto sicuro del motivo per cui Claude abbia "fatto la spia".

"Non abbiamo un controllo diretto su questi sistemi", afferma Bowman. Ciò che Anthropic ha osservato finora è che, man mano che i modelli acquisiscono maggiori capacità, a volte scelgono di intraprendere azioni più estreme. "Penso che qui si stia un po' sbagliando. Stiamo assistendo a un po' più di 'Comportati come farebbe una persona responsabile', senza abbastanza 'Aspetta, sei un modello linguistico, che potrebbe non avere abbastanza contesto per intraprendere queste azioni'", afferma Bowman.

Ma questo non significa che Claude denuncerà comportamenti eclatanti nel mondo reale. L'obiettivo di questo tipo di test è spingere i modelli al limite e vedere cosa succede. Questo tipo di ricerca sperimentale sta diventando sempre più importante man mano che l'intelligenza artificiale diventa uno strumento utilizzato dal governo statunitense , dagli studenti e dalle grandi aziende .

E non è solo Claude a essere capace di manifestare questo tipo di comportamento di segnalazione, afferma Bowman, indicando gli utenti di X che hanno scoperto che i modelli di OpenAI e xAI funzionavano in modo simile quando sollecitati in modi insoliti. (OpenAI non ha risposto a una richiesta di commento in tempo per la pubblicazione).

"Snitch Claude", come amano chiamarlo gli shitposter, è semplicemente un comportamento limite manifestato da un sistema spinto al limite. Bowman, che stava tenendo la riunione con me da un soleggiato patio fuori San Francisco, dice di sperare che questo tipo di test diventi lo standard del settore. Aggiunge anche che ha imparato a formulare diversamente i suoi post sull'argomento la prossima volta.

"Avrei potuto fare un lavoro migliore nel rispettare i limiti delle frasi per twittare, per rendere più evidente che fosse stato estratto da un thread", dice Bowman guardando lontano. Tuttavia, nota che influenti ricercatori nella comunità dell'intelligenza artificiale hanno condiviso interessanti opinioni e domande in risposta al suo post. "Tra parentesi, questa parte di Twitter, più caotica e più anonima, lo stava ampiamente fraintendendo".

wired

Perché il nuovo modello di intelligenza artificiale di Anthropic a volte cerca di "fare la spia"

Notizie simili

Il settore delle PMI polacche è pronto per la digitalizzazione. Ci sono barriere da superare

Questa decisione di ChatGPT potrebbe "far pendere la bilancia". Il Presidente dell'Ufficio per la protezione dei dati personali annuncia quando verrà presa la decisione

WIRED ha parlato con un membro licenziato dello staff di DOGE su chi fosse veramente al comando

La spinta di Meta per la "libertà di espressione" porta a un calo notevole dei contenuti rimossi

L'amministrazione Trump vuole creare un "Ufficio per la reimmigrazione"